Abstract
Bilaketa bi daude honetan. Batetik, Euskaltzaindiak EHHA PDFan sareratzen du. Horrek elementuen azterketa errazten badu ere, zail egiten da hurrengo irakurketa batzuk egitea. Euskaltzaindiak eskaintzen dituen datuak oinarri, multzokatze (cluster) analisia aurkitu nahi da, lematizazio lana errazte aldera.Lan-jario bat aurkitu nahi dut EHHAko datuetatik lemen identifikaziora ahalik eta erarik automatizatuenean iristeko.
Helburu hori lortzeko ahaleginak HAIR.csv datuekin egin ditut (Dialektologia batzordea 2018), ilea izendatzeko moduei buruzko datuekin.
Pausuak, osorik zein zorrozteke daudenak, honako hauek dira:
Prozesu horren bitartez multzoak egiteko teknikarik egokiena antzeman behar da, lemak identifikatzea helburua dela.
Hurrengo pausua izan daiteke aukeratutako teknikan identifikatzea zein den lemak banatzeko multzokatze neurria, dendograma zein alturatan moztu behar den, alegia. Teknika eta neurri horiek beste datu multzo batzuetan aztertu behar dira.
R-ra ekarri aurretik, datuen prestaketa eta garbiketa egin behar da, nik hurrengo pausen bitartez egitea pentsatu dut:
| V1 | V2 | V3 | V4 | V5 | |
|---|---|---|---|---|---|
| 120 | Arrueta | bílo | |||
| 121 | Baigorri | ile | |||
| 122 | Bastida | íle | bíle (?) | ||
| 123 | Behorlegi | biló | |||
| 124 | Bidarrai | βiló | íle | ||
| 125 | Ezterenzubi | bílo | |||
| 126 | Gamarte | biló | |||
| 127 | Garrüze | bílo | |||
| 128 | Irisarri | bílo | |||
| 129 | Izturitze | bílho | ilhe (?) | ||
| 130 | Jutsi | bilho | |||
| 131 | Landibarre | biluá | bírua | bílo | ílea |
| 132 | Larzabale | bilho |
Data frameak aldagai asko ditu (5) eta lerroak/herriak 145 dira.
Ordena zuzendu behar da honelako egiturara:
Nahi den egokitzapen horretarako, sortuko ditugu data frameak erantzun-aldagaiak beste, gero denak data frame bakarrean batzeko.
| HERRIA | ERANTZUNAK | |
|---|---|---|
| 255 | Makea | *íle |
| 258 | Senpere | *ile͜óndo |
| 260 | Uztaritze | *βiló |
| 261 | Aldude | *biló |
| 263 | Armendaritze | biló |
| 264 | Arnegi | ilé |
| 267 | Bastida | bíle (?) |
| 269 | Bidarrai | íle |
| 274 | Izturitze | ilhe (?) |
| 276 | Landibarre | bírua |
| 282 | Domintxaine | bilhó |
| 283 | Eskiula | bilhúk |
| 386 | Suarbe | íʎa |
| 421 | Landibarre | bílo |
| 566 | Landibarre | ílea |
Oraingo data frameak 2 aldagai eta 173 lerro ditu
Azentu eta karaktere konfigurazio batzuk aldatu behar dira, abisurik ez emateko.
Oharra Puntu honetan berrikus daitezke euskarazko konfigurazio batzuk sinplifikatzea, alineR-ek lana hobeto egiteko, esate baterako, bilho/bilo erakoak batu, lh guztiak l hutsera pasatuaz. Berdin egin behar litzateke, hala egitera, kh eta antzerako kasuekin.
ipa.garbifuntzioa eraiki behar da
Darabiltzagun datuekin aldaera batzuen arteko ALINE distantzi linguistikoa aztertuko dugu. Oinarritzat Azkoitiako íʎe aldaera erabili da beste modu batzuekin alderatzeko.
| pair1 | |
|---|---|
| w1 | íʎe |
| w2 | bílho |
| scores | 0.51 |
| a1 | | - í - ʎ | |
| a2 | | b í l h | |
Horretarako Marcelino de la Cruzek pasatutako irtenbidea erabili dut: aline.dist funtzioa begizta batez eraikita.
| Arrieta | Bakio | Bermeo | Berriz | Bolibar | Busturia | Dima | Elantxobe | |
|---|---|---|---|---|---|---|---|---|
| Arrieta | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Bakio | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Bermeo | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Berriz | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Bolibar | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Busturia | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Dima | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Elantxobe | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Elorrio | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Errigoiti | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Etxebarri | 0.169 | 0.169 | 0.169 | 0.169 | 0.169 | 0.169 | 0.169 | 0.169 |
| Etxebarria | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Gamiz-Fika | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Getxo | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Gizaburuaga | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Ibarruri (Muxika) | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Kortezubi | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Larrabetzu | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Laukiz | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Leioa | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Lekeitio | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Lemoa | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Lemoiz | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
| Mañaria | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 | 0.000 |
Azterketa hau R-k bere base paketean eskaintzen dituen zortzi multzokatze moduak erabilita dago eginda. Hurrengo tartean zortzi era horiek batera erakusten dira. Hori egitea proposatzen da zein multzokatze era komeni litzatekeen era grafikoan aztertzeko.
Aztergai darabiltzagun datuetan zazpi lema identifikatu behar dituela ematen du:
Dendogrametan 7 multzokatze aukeratzeko eskatzen da, ea bilatzen den multzokatze hori zein erak ematen duen, batek ematen badu, behintzat.
Irudien gainetiko azterketa bat:
Lema bat etiketa-zenbaki bik adierazi behar dutela jakin arren, ez du ematen oraingo pausuan berebizikoa izango denik.
Oharra: Erabaki behar da ea erabilgarria den ala ez.
Zortziko taldekatzeak ezin erantzun diezaioke gure planteamenduari, datu hauek erabilita. Bide posibleak bi dira, beraz:
Aurreko irudiak aztertuta (eskuineko botoiarekin pantaila osoan ikus daitezke), ematen du gure helburuetatik hurbilen dagoen multzokatze era ward.D2 dela. Baina, datuak dauden moduan Senpereko ileondo forma ILE lemaren barruan kokatzen du eta banaketa bat markatzen du BILO eta BILHO artean.
Datuak zuzendu ezik, etiketa bik bat behar lukete.
Honetan soilik aztertuko da ward.D2 multzokatze era, baina aurretik datuen lh formak l-ra igaro eta distantzi matrizea berreraikita.
Azken multzoek ere ez diote ondo erantzuten, Landibarreko biruak forma eta Ataungo burukoile elkarrekin ematen baititu. Hala ere, ematen du bidea hortik pasa daitekeela.
GARATZEKO
Ideia hutsa da. k-mean teknikak erabilita, badago era bat grafikoki aztertzeko ea zenbat k egitea komeni den. Multzokatzeen Analisirako gidan (Kassambara 2017) zehazten da zelan egin2.
Aztertu ia alderik dagoan multzokatzeko aldaeren artean.
Funtzioa egin behar da.
Multzo era egokia aukeratutakoan, multzoak zehaztu eta mugatu behar dira. Hemen agertzen den multzokatze erak ez du beste helbururik bat aukeratuta programazioa garatzea baino.
Oinarrizko galdera: Esperotako multzoak bat datoz ekuz egindako lematizazio lanarekin?
Erantzun honetan oinarritua https://stackoverflow.com/questions/6518133/clustering-list-for-hclust-function
Cluster arazoduna:
## [1] "Ataun" "Landibarre"
data.frame bat sortuDatuok berrantolatu daitezke eta .csv artxibo batera zuzenean atera.
Lehenengo zutabean herriak eta hizkuntz formak agertzen dira, bigarrenean multzoa.
| HERRIAK | FORMAK | MULTZOA |
|---|---|---|
| Arrazola (Atxondo) | úle | 1 |
| Arrieta | úle | 1 |
| Bakio | ulé | 1 |
| Bermeo | ulé | 1 |
| Berriz | úle | 1 |
| Bolibar | úle | 1 |
| Busturia | ulé | 1 |
| Dima | úle | 1 |
| Elantxobe | ulé | 1 |
| Elorrio | úle | 1 |
| Errigoiti | úle | 1 |
| Etxebarri | úʎa | 1 |
| Etxebarria | úle | 1 |
| Gamiz-Fika | ulé | 1 |
| Getxo | úle | 1 |
| Gizaburuaga | úle | 1 |
| Ibarruri (Muxika) | úle | 1 |
| Kortezubi | ulé | 1 |
| Larrabetzu | úle | 1 |
| Laukiz | ulé | 1 |
| Leioa | ulé | 1 |
| Lekeitio | úle | 1 |
| Lemoa | úle | 1 |
| Lemoiz | ulé | 1 |
| Mañaria | úle | 1 |
| Mendata | úle | 1 |
| Mungia | úle | 1 |
| Ondarroa | úle | 1 |
| Orozko | úʎe | 1 |
| Otxandio | úle | 1 |
| Sondika | úle | 1 |
| Zaratamo | úʎe | 1 |
| Zeanuri | úʎe | 1 |
| Zeberio | úʎe | 1 |
| Zollo (Arrankudiaga) | úʎa | 1 |
| Zornotza | úle | 1 |
| Aramaio | úle | 1 |
| Araotz (Oñati) | úle | 1 |
| Arrasate | úle | 1 |
| Eibar | úle | 1 |
| Leintz Gatzaga | úle | 1 |
| Oñati | úle | 1 |
| Aia | iʎé | 2 |
| Amezketa | iʎé | 2 |
| Andoain | iʎé | 2 |
| Arroa (Zestoa) | iʎé | 2 |
| Asteasu | iʎé | 2 |
| Azkoitia | íʎe | 2 |
| Azpeitia | iʎé | 2 |
| Beasain | iʎe | 2 |
| Beizama | iʎé | 2 |
| Bergara | íʎe | 2 |
| Deba | íʎe | 2 |
| Donostia | iʎé | 2 |
| Elduain | iʎɛ | 2 |
| Elgoibar | iʎe | 2 |
| Errezil | iʎé | 2 |
| Ezkio-Itsaso | iʎé | 2 |
| Getaria | iʎé | 2 |
| Hernani | iʎé | 2 |
| Hondarribia | iʎe | 2 |
| Ikaztegieta | iʎe | 2 |
| Lasarte-Oria | iʎé | 2 |
| Legazpi | íʎe | 2 |
| Mendaro | iʎé | 2 |
| Oiartzun | iʎé | 2 |
| Orexa | íʎe | 2 |
| Orio | iʎé | 2 |
| Pasaia | iʎé | 2 |
| Tolosa | iʎé | 2 |
| Urretxu | iʎé | 2 |
| Zegama | iʎé | 2 |
| Alkotz | iʎá | 2 |
| Aniz | iʎé | 2 |
| Arbizu | iʎá | 2 |
| Donamaria | iʎé | 2 |
| Dorrao / Torrano | íʎa | 2 |
| Erratzu | íle | 2 |
| Etxalar | iʎé | 2 |
| Ezkurra | iʎé | 2 |
| Gaintza | iʎé | 2 |
| Goizueta | iʎɛ | 2 |
| Leitza | iʎé | 2 |
| Lekaroz | ílɛ | 2 |
| Sunbilla | iʎé | 2 |
| Urdiain | íle | 2 |
| Zugarramurdi | íle | 2 |
| Ahetze | íle | 2 |
| Arrangoitze | íle | 2 |
| Azkaine | iʎé | 2 |
| Donibane Lohizune | ilé | 2 |
| Hazparne | íle | 2 |
| Hendaia | iʎé | 2 |
| Itsasu | ilé | 2 |
| Mugerre | ile | 2 |
| Sara | ilé | 2 |
| Senpere | íle | 2 |
| Uztaritze | ilé | 2 |
| Aldude | íle | 2 |
| Armendaritze | ilé | 2 |
| Baigorri | ile | 2 |
| Bastida | íle | 2 |
| Beruete | iʎé | 2 |
| Etxaleku | iʎé | 2 |
| Etxarri (Larraun) | iʎí | 2 |
| Igoa | iʎé | 2 |
| Suarbe | íʎe | 2 |
| Azkaine | ileá | 2 |
| Makea | íle | 2 |
| Arnegi | ilé | 2 |
| Bidarrai | íle | 2 |
| Izturitze | ilhe | 2 |
| Suarbe | íʎa | 2 |
| Landibarre | ílea | 2 |
| Ataun | βurúkoiʎé | 3 |
| Landibarre | bírua | 3 |
| Abaurregaina / Abaurrea Alta | βílo | 4 |
| Eugi | βílo | 4 |
| Jaurrieta | bílo | 4 |
| Luzaide / Valcarlos | bílo | 4 |
| Mezkiritz | bílo | 4 |
| Zilbeti | βílo | 4 |
| Bardoze | bílo | 4 |
| Beskoitze | βílo | 4 |
| Makea | βiló | 4 |
| Urketa | bílo | 4 |
| Arboti | bílwak | 4 |
| Arnegi | βiló | 4 |
| Arrueta | bílo | 4 |
| Behorlegi | biló | 4 |
| Bidarrai | βiló | 4 |
| Ezterenzubi | bílo | 4 |
| Gamarte | biló | 4 |
| Garrüze | bílo | 4 |
| Irisarri | bílo | 4 |
| Izturitze | bílho | 4 |
| Jutsi | bilho | 4 |
| Landibarre | biluá | 4 |
| Larzabale | bilho | 4 |
| Uharte Garazi | bílo | 4 |
| Altzai | bilhó | 4 |
| Altzürükü | bílho | 4 |
| Barkoxe | bilho | 4 |
| Domintxaine | bílo | 4 |
| Eskiula | bílho | 4 |
| Larraine | bilho | 4 |
| Montori | bilhó | 4 |
| Pagola | bilhó | 4 |
| Santa Grazi | bílho | 4 |
| Sohüta | bílho | 4 |
| Urdiñarbe | bilhó | 4 |
| Ürrüstoi | bílho | 4 |
| Hazparne | bílo | 4 |
| Itsasu | bílo | 4 |
| Uztaritze | βiló | 4 |
| Aldude | biló | 4 |
| Armendaritze | biló | 4 |
| Bastida | bíle | 4 |
| Domintxaine | bilhó | 4 |
| Eskiula | bilhúk | 4 |
| Landibarre | bílo | 4 |
| Beruete | kalpár | 5 |
| Etxaleku | kalpár | 5 |
| Etxarri (Larraun) | kalpár | 5 |
| Igoa | kalpár | 5 |
| Oderitz | kalpár | 5 |
| Suarbe | kálpar | 5 |
| Alkotz | kalpár a | 5 |
| Gaintza | kalpár | 5 |
| Asteasu | tʃimá | 6 |
| Oiartzun | kíma | 6 |
| Pasaia | símá | 6 |
| Senpere | ileondo | 7 |
## Warning in min(-diff(our_dend_heights)): no non-missing arguments to min;
## returning Inf
Multzokatzeko beste eraren batek, agian, eman lezake emaitza hoberik. Emaitzak zorrozteko beste bide bat izan liteke karaktere/karaktere-kateak ordezteko unean.
Dialektologia batzordea. 2018. Euskararen Herri Hizkeren Atlasa IX Lexikoa. Vol. 9. Bilbo: Euskaltzaindia. http://www.euskaltzaindia.eus/dok/iker_jagon_tegiak/ehha/9lib/ehha_09.zip.
Downey, Sean S., Brian Hallmark, Murray P. Cox, Peter Norquest, and J. Stephen Lansing. 2008. “Computational Feature-Sensitive Reconstruction of Language Relationships: Developing the ALINE Distance for Comparative Historical Linguistic Reconstruction.” Journal of Quantitative Linguistics 15 (4): 340–69. doi:10.1080/09296170802326681.
Downey, Sean S., Guowei Sun, and Peter Norquest. 2017. “alineR: An R Package for Optimizing Feature-Weighted Alignments and Linguistic Distances.” The R Journal 9 (1): 138–52. https://journal.r-project.org/archive/2017/RJ-2017-005/index.html.
Kassambara, Mr Alboukadel. 2017. Practical Guide to Cluster Analysis in R: Unsupervised Machine Learning. 1st ed. Multivariate Analysis 1. Frantzia: STHDA.
Aztertu daiteke balioak eurak ere kentzea↩